AI资讯新闻榜单内容搜索-Token-Leve

大模型RL训练为何会「越训越窄」？ACL Outstanding Paper从token-level熵变揭示RLVR训练机制

基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards，RLVR）正在成为大模型后训练的关键技术。数学题能判对错，代码能跑测试，可验证奖励让大模型可以通过强化学习持续提升推理能力。

来自主题: AI技术研报

10329 点击 2026-07-16 10:10

随着生成式人工智能技术的飞速发展，合成数据正日益成为大模型训练的重要组成部分。未来的 GPT 系列语言模型不可避免地将依赖于由人工数据和合成数据混合构成的大规模语料。

来自主题: AI技术研报

9932 点击 2025-05-14 14:04

在人工智能领域的发展过程中，对大语言模型（LLM）的控制与指导始终是核心挑战之一，旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法（RLHF）来管理这些模型，成效显著，标志着向更加人性化 AI 迈出的关键一步。

来自主题: AI技术研报

6220 点击 2024-06-23 19:39